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基于 极 性 转移 和 LSTM 的 树 结构 网 络 与 句子 分 类 = 
汪 上 冉 , 金 中 


(南京 理工 大 学 计算 机 科学 与 工程 学 院 ， 南 京 210018) 


摘 要 : 长 短期 记忆 网 络 (long short term memory，LSTM) 是 一 种 能 长 久 储 存 序列 信息 的 循环 神经 网 络 ， 在 语言 模型 、 
语音 识别 、 机 器 翻译 等 领域 都 得 到 了 广泛 的 应 用 。 先 研究 了 前 人 如 何 将 LSTM 中 的 记忆 模块 拓展 到 语法 树 得 到 LSTM 
树 结 构 网 络 模型 ， 以 获取 和 储存 句子 深层 次 的 语义 结构 信息 ; 然后 针对 句子 词语 间 的 极 性 转移 在 LSTM 树 结 构 网 络 模 
型 中 添加 了 极 性 转移 信息 提出 了 极 性 转移 LSTM 树 结 构 网 络 模型 ， 更 好 获取 情感 信息 来 进行 句子 分 类 。 实 验 表明 在 
Stanford sentiment tree-bank 数据 集 上 ， 提 出 的 极 性 转移 LSTM 树 结构 网 络 模 型 的 句子 分 类 效果 优 于 LSTM、 递 归 神 经 
网 络 等 模型 。 
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Tree-structured networks based on polarity shifting and LSTM for sentences classification 


Wang Ran, Jin Zhong 
(School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210018, China) 


Abstract: Long short term memory (LSTM) is a recurrent neural network (RNN) which has outstanding ability to preserve 
sequence information for a long time. It has been widely used in the language modeling, machine translation, speech recognition 
and other fields. Firstly, this paper explored how predecessors extend the memory module in LSTM to the syntax tree to get 
Tree-Structured LSTM networks model which can obtain and store the semantic structure information of the sentences; Then, 
according to the polarity shifting information between the words of sentences, it proposed a Polarity Shifting Tree-Structured 
LSTM networks model to capture the sentiment information for better sentences classification. The proposed model show a 
better performance than LSTM, recursive neural networks and other models for sentences classification on Stanford Sentiment 


Tree-bank dataset. 


Key Words: neural networks; LSTMi tree-structure network; polarity shifting; sentence classification 


0 引言 词 向 量 的 平均 向 量 作 为 句子 的 向 量 表示 1, 它 完 全 忽略 单词 的 
顺序 和 语法 ， 很 难 获取 句子 有 意义 的 信息 。 该 模型 经 常 被 很 有 

近年 来 深度 学 习 被 有 效 地 广泛 应 用 于 语音 识别 止 、 机 器 翻 效 地 用 在 传统 的 贝 叶 斯 模型 、LSA 和 LDA 等 模型 中 。2008 年 

译 外 以 及 图 像 转换 成 文本 等 领域 中 ,在 自然 语言 处 理 领域 , 随 着 。 Pang 和 Lee 等 人 使 用 词 袋 模型 对 文本 进行 情感 分 析 和 分 类 , 随 


学 者 对 神经 网 络 的 不 断 探索 ， 各 种 神经 网 络 模型 在 语言 建 模 和 后 更 多 人 试 着 设计 能 获取 更 好 的 句子 特征 的 模型 或 者 使 用 基于 
文本 情感 分 类 等 方面 都 取得 了 很 大 的 进展 。 句法 结构 的 极 性 转移 特征 来 提高 情感 分 类 的 准确 率 。 序 列 模型 

所 有 单词 的 排列 顺序 0" 该 模型 句子 建 模 时 直 
排列 顺序 连接 得 到 句子 表示 ， 然 而 并 没有 考虑 
使 用 神经 网 络 句子 分 类 时 ， 首 先 面 对 的 是 句子 建 模 ， 即 用 模型 ”到 句子 的 结构 信息 。 而 树 结构 模型 是 根据 给 定 的 句法 树 构 造 递 
训练 后 的 向 量 来 表示 句子 。 目 前 有 三 种 模型 应 用 比较 广泛 : 词 。” 归 网 络 最 终 获 得 句子 中 短语 和 句子 的 表示 B&I0。 树 结构 已 经 用 
袋 模型 、 序 列 模 型 和 树 结构 模型 。 三 种 模式 各 有 特点 ， 词 袋 模 于 分 析 自然 的 图 像 场景 ， 还 用 于 从 词 向 量 到 短语 向 量 的 转换 ， 
型 比较 简单 ， 它 将 句子 看 成 无 序 的 单词 的 集合 ， 有 时 将 所 有 单 对 句子 的 情感 极 性 进行 分 类 00。2013 年 Socher 等 人 在 影评 


句子 分 类 在 自然 语言 处 理 领域 具有 很 大 的 研究 价值 和 应 用 ” 则 很 看 重 句 子 


价值 外, 该 研究 内 容 引 起 越 来 越 多 的 国内 外 学 者 的 兴趣 和 重视 。 ” 接 将 单词 向 量 


对 二 
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数据 上 使 用 递归 神经 网 络 模型 进行 情感 分 类 展现 了 比 传统 模型 
更 好 的 效果 。 

句子 分 类 中 ， 词 袋 模型 并 不 能 完全 掌握 自然 语言 句子 的 全 
部 语义 ， 无 法 分 辨 由 词 序 或 句法 结构 造成 的 语义 差别 ， 于 是 使 


用 序列 模型 和 树 结构 模型 会 更 有 效 ， 而 且 由 于 树 结构 模型 与 名 
法 结构 的 相关 性 更 强 ， 树 结构 模型 是 最 优选 择 。 循 环 神经 网 络 
(RNN) 是 解决 序列 化 的 一 种 有 效 的 方法 ， 理 论 上 它 可 以 处 理 
任意 长 度 的 序列 ， 但 在 训练 网 络 时 会 出 现 梯 度 消失 的 问题 (9。 
LSTM 网 络 是 RNN 的 一 种 改进 ， 该 网 络 在 处 理 梯 度 消 失 问 题 
上 有 很 大 突破 03， 使 网 络 可 以 长 久保 存 序列 信息 ,但 LSTM 网 
络 还 是 无 法 获得 句子 的 句法 结构 信息 。 在 基于 树 的 递归 神经 网 
络 (recursive neural network, ReNN) 结构 中 运用 LSTM 记忆 模 
块 的 Tree-Structured LSTM 模型 则 不 仅 能 够 获取 句法 结构 和 语 
义 信 息 还 能 在 递归 中 长 久保 存 节 点 信息 。 原始 的 LSTM 记忆 模 
块 输入 是 当前 时 刻 的 外 部 输入 以 及 上 一 时 刻 的 隐藏 状态 量 ， 
Tree-Structured LSTM 模型 的 输入 则 是 当前 节点 的 外 部 输入 和 
子 节点 的 隐藏 状态 量 。 
本 文 先 介绍 了 已 有 的 基本 网 络 模型 ， 重 点 介绍 将 LSTM 记 
忆 模 块 分 别 运 用 到 基于 依存 句法 树 和 短语 结构 树 的 树 结构 网 络 
中 得 到 的 tree-structured LSTM 模型 ; 然后 将 情感 极 性 转移 融合 
到 tree-structured LSTM 模型 中 提出 了 两 种 新 的 polarity tree- 
structured LSTM (PTree-structured LSTM) 模 型 , 丰富 了 LSTM 记 
忆 模 块 的 信息 ， 不 仅 获得 句子 的 语义 信息 和 句法 结构 信息 还 保 
存 了 情感 信息 ， 更 有 效 地 解决 句子 分 类 问题 。 接 着 给 出 了 在 本 
文 模 型 下 实验 的 结果 以 及 和 其 他 模型 的 对 比分 析 。 


1 ”相关 工作 


1.1 长 短期 记忆 网 络 (LSTM) 

循环 神经 网 络 (RNN ) 通过 对 网 络 块 中 隐藏 状态 向 
he Rh 的 循环 使 用 ， 可 以 处 理 任意 长 度 的 序列 。 其 中 ，1 时 
的 隐藏 状态 向 量 h 是 由 此 刻 的 输入 向 量 x 和 /1 时刻 的 隐 
状态 向 量 有 的 非 线 性 函数 转换 得 到 ， 如 式 (1) 所 示 的 双 曲 正 


沼 黑 注 肥 


h = tanh(Wx, + Uh,, +b) (1) 

但 是 , RNN 在 训练 网 络 参数 时 会 产生 梯度 向 量 下 降 或 者 增 

长 速度 过 快 的 问题 0519,， 特别 处 理 一 个 较 长 序列 时 ，RNN 模型 
会 因为 存在 此 问题 而 很 难 有 很 好 的 效果 。 


二 er . 让 


.| | 


图 1 LSTM 网 络 结构 


X2 Xt 


如 图 1 所 示 , 长 短期 记忆 (LSTM ) 网 络 通过 利用 一 个 记忆 
模块 来 改进 RNN, 它 在 此 模块 中 保存 若干 状态 向 量 来 保存 序列 
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C 
汪 和 髓 ， 等 : 基于 极 性 转移 和 LSTM 的 树 
中 的 每 个 时 刻 信息 。 这些 状 态 向 量 包含 : 输入 门 i ,遗忘 门 f， 
输出 门 o,， 记 忆 状 态 c,， 以 及 隐藏 状态 。LSTM 记忆 模块 
的 向 量 维 数 g 称 为 LSTM 的 内 部 向 量 维度 。LSTM 单元 中 的 状 
态 向 量 转换 公式 如 下 : 


UD 


i=oWOx, +UVh +b") 2) 
f=oWOx +UNh ,+b") G3) 
0,=oWOx +Uh ,+b") (4) 
u, =tanh(W x, + Uh +b") G5) 
c=iOu+fOco, (6) 
h, =0,0tanh(c,) (7) 


在 式 (2)~(7) 中 ，x 是 时 刻 1 的 输入 ，Sigmoid 函数 将 状态 向 
量 的 数值 控制 在 0 与 1 之 间 。 该 模型 通过 使 用 各 种 门限 改变 每 
个 向 量 的 状态 可 以 处 理 各 种 时 间 尺 度 的 问题 。 
1.2 基于 LSTM 的 树 结 构 网 络 

句子 中 单词 之 间 不 仅 存在 顺序 关系 ,基本 的 LSTM 网 络 局 
限于 序列 的 有 序 性 不 能 展示 句子 的 结构 信息 。 而 树 结构 网 络 可 
利用 句子 构造 的 语法 树 来 建造 递归 网 络 ， 此 递归 网 络 可 以 体现 
句子 结构 信息 却 易 造成 信息 丢失 。 2015 年 Socher 等 人 结合 两 
者 的 特点 将 LSTM 记忆 模块 拓展 运用 到 树 结构 网 络 中 ,提出 两 
种 融合 LSTM 记忆 模块 的 树 结构 网 络 073: 融合 LSTM 的 依存 句 
法 树 结 构 网 络 Dependency Tree LSTM (DTree-LSTM) 、 融 合 
LSTM 的 短语 结构 树 网 络 Constituency Tree LSTM (CTree- 
LSTM) 。 这 种 模型 近期 用 于 句子 表示 08， 句 子 分 析 09 都 有 很 
好 的 效果 。 

Tree-structured LSTM 中 节点 的 LSTM 记忆 模块 中 的 状态 
向 量 均 与 子 节点 相关 ， 节 点 中 状态 向 量 包含 了 输入 门 i ， 输 
出 门 0; ,记忆 状态 c, 和 隐藏 状态 hh, x; 表示 句子 中 单词 向 量 ， 
且 对 每 一 个 子 节点 均 设置 一 个 遗忘 门 fj,( 为 孩子 节点 索引 )， 
侧重 保存 重要 的 语义 信息 。 
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(a) 依存 句法 结构 树 (b) 短语 结构 树 
图 2 依存 句法 结构 树 和 短语 结构 树 


1.2.1 融合 LSTM 的 依存 句法 结构 树 网 络 

法 国 的 语言 学 家 L.Tesniere 最 早 提出 依存 句法 结构 ,如 图 
2(a) 所 示 的 一 棵 依存 句法 树 , 它 描述 节点 与 其 子 节点 之 间 的 依存 
关系 ,展示 了 在 句法 上 词语 之 间 的 和 语义 有 关 的 搭配 关系 。 该 本 
结构 有 如 下 特点 : 子 节点 是 无 序 的 子 节点 的 数目 不 定 。 根 据 
这 两 个 特点 , 将 融合 LSTM 的 依存 句法 树 结构 (DTree-LSTMD) 
中 的 状态 向 量 转换 设置 如 下 : 


hh= Dh (8) 


keC()) 
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式 (8)~(14) 
和 将 节点 的 x 


i =o(WOx, +UVh+b) (9) 

天 a o(WDx, +UMDh, 十 DO) (10) 

0),=oWOx +U 记 +D) (GD 

u, =tanh(W™ x, Uh+ bey (12) 

c=iOu+ 》 frOc (13) 
ksC(U) 

万 =oiOtanh(c)) (14) 

FP 的 C(O) 为 节点 7 的 子 节点 数目 ， 参 数 和 矩阵 本 


和 转 成 记忆 模块 内 部 向 量 。DTree-LSTM 网 


络 结构 如 图 


3(a) 


所 示 。 


(C1) 


(hy (co) 


(h» 


() (hy 


(b) CTree-LSTM 结构 


3 DTree-LSTM 网 络 结构 和 CTree-LSTM 结构 


1.2.2 融合 LSTM 的 短语 结构 树 网 络 


句子 的 短语 


2(b) 所 示 把 句子 分 
的 非 叶 子 节点 表示 子 节点 之 间 
结构 树 


的 单词 。 短 语 


上 


结构 句法 分 析 源 于 传统 的 句子 图 解法 ， 即 如 图 
制 为 短语 (动词 词组 ,名词 词 组 等 )。 这 种 树 
的 关系 ， 叶 子 节 点 则 代表 句子 中 
有 如 下 特点 : 它 是 一 个 二 叉 树 ， 且 节点 的 


是 有 序 的 ; 它 只 有 在 叶子 节点 上 有 单词 输入 。 


点 


子 节点 


将 LSTM 单元 融合 到 短 i 


转换 设置 如 下 : 


的 状态 向 量 


天 结构 树 (CTree-LSTM ) 中 


Chi 
汪 冉 ， 等 : 基于 极 性 转移 和 ty na 


合作 期 


络 己 


句 


a 


i =o(W™x, + 9 UD, +b") (15) 
fx =oW Ox,+ yUY Yh, +b") (16) 
oj =a(W xi + YU +b") (17) 
Uj = tanh(W™x, 十 Yvon, +b"") (18) 
Cj =iOut+ > fnO ci (19) 
h; =0,Otanh(c,) (20) 
式 (15)~(20) 中 的 N 为 节点 的 子 节点 数目 ， k=12,...,N。 在 
豆 语 结构 树 中 N=2 或 者 0。 该 树 网 络 对 子 节点 的 隐藏 状态 及 赋 
予 了 不 同 的 参数 矩阵 。 这 种 做 法 对 短语 组 合 有 不 同 的 侧重 度 ， 
对 于 情感 强烈 的 节点 参数 矩阵 需 调整 到 更 大 值 。CTree-LSTM 
网 络 如 图 3(b) 所 示 。 
2 ”融合 极 性 转移 和 LSTM 的 树 结构 网 络 


2.1 情感 极 性 转移 


语言 理解 中 ， 单 词 的 极 性 转移 能 够 影响 整个 句子 的 情 


性 ,句子 中 的 副词 ， 
情感 极 性 转移 如 表 1 


否 
中 ， 忽 略 了 每 个 节 


#3 定 和 转折 ) ， 一 种 句 间 极 
点 的 情感 


所 示 一 般 分 为 


络 ， 在 每 个 节点 利用 


些 情感 状态 向 量 


性 转折 Pol。 
计 息 ， 所 以 提 
SoftMax 得 出 节点 的 情感 状态 向 量 
作为 情感 极 性 
计算 节点 的 表示 时 ， 不 仅 拥 有 子 节点 由 


Er 
| 


感 极 


否定 词 等 都 会 使 整个 句子 的 极 性 发 生 偏转 ， 
q 类 ;三 种 句 内 显 式 (强调 、 
在 tree-structured LSTM 
PTree-LSTM 网 


上 ， 


转移 特征 更 好 地 训练 网 络 。 则 在 
原始 记忆 模块 保存 的 语 


将 这 


义 结构 相关 信息 ， 还 获得 了 子 节 点 的 情感 信息 ， 具 体 的 做 法 是 
为 每 一 个 节点 的 LSTM 记忆 模块 的 状态 向 量 中 设置 添加 情感 状 
态 向 量 / 和 情感 极 性 转移 向 量 p。 
表 1 句子 中 单词 极 性 转移 示例 
类 型 样 例 线索 作用 域 
强调 他 很 喜欢 这 本 书 显 式 ” 句 F 
否定 我 不 喜欢 这 个 地 方 显 式 句 F 
转折 这 个 手机 还 不 错 ， 但 我 不 喜欢 。 显 式 ” 句 
句 间 极 性 转折 这 个 手机 配置 不 错 ， 但 是 样式 不 好 看 隐 式 ” 句 间 


2.2 


融合 极 性 转移 和 LSTM 的 依存 句法 树 网 络 


在 依存 句法 树 中 ， 子 节点 是 无 序 的 ， 所 以 对 于 子 节点 的 情 


感 状 态 向 量 1 无须 侧 3 


(21)~(30) 所 示 。 


i 


keC()) 


b,=oW™ 1 


考虑 ， 则 状态 向 量 转换 设 


及 


十 DO) 


如 式 


CD 


22) 
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hi= Dh (23) 
keC()) 

i =oWOx, +UDh+D,) (24) 
fan =oW Dx +UNh, +b,) (25) 
0,=oW Ox, FU +b,) (26) 
u; =tanh(W I x, +U" ht b,) (27) 
c=iOu+ 2 frOc (28) 

KkeC()) 
h,=0,0tanh(c,) (29) 
1, = SofrMax(W h, + b") (30) 


xX; 表示 句子 中 单词 向 量 ， 节 点 中 门限 向 量 i; ，f 和 wo 中 的 
向 量 值 均 为 0 到 1 之 间 。 遗 忘 门 £ 控制 着 子 节点 的 记忆 模块 中 
哪些 内 容 将 被 丢弃 ， 输 入 门 i 控制 着 更 新 内 容 ， 输 出 门 o, 控制 
着 输出 内 容 。 若 在 一 棵 依存 句法 树 中 ， 某 节点 语义 信息 能 够 强 
烈 表达 情感 ， 训 练 网 络 过 程 中 则 会 不 断 调整 Ww 使 i 中 的 值 更 
接近 1 来 保存 这 个 节点 的 信息 ， 反 之 则 使 其 更 接近 0。 

节点 的 情感 极 性 转移 向 量 久 由 综合 考虑 子 节点 的 情感 状 
态 向 量 / 所 得 ,b, 表示 语法 树 中 单词 之 间 的 极 性 转移 信息 。 网 络 
训练 时 通过 不 断 调 整 参数 yw ， 由 下 往 上 的 递归 传递 极 性 转移 
宫 息 来 更 准确 的 获得 每 个 节点 的 情感 标签 和 整个 句子 的 情感 信 
息 。 PDTree-LSTM 网 络 图 如 图 4(a) 所 示 。 


UD 


(EY) (hy CD) 


(b)PCTree-LSTM 结构 


图 4 PDTree-LSTM 网 络 图 和 PCTree-LSTM 结构 


2.3 融合 极 性 转移 和 LSTM 的 短语 结构 树 网 络 
短语 结构 树 中 子 节点 是 短语 组 合 ， 两 个 节点 的 侧重 性 应 该 


aXiv 合 作 期 二 
络 
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不 同 ， 所 以 极 性 转移 在 此 模型 中 更 有 突出 体现 ， 则 需 将 子 节 点 
的 情感 状态 向 量 分 开 考虑 ， 状 态 向 量 转换 设置 如 式 (31)~(38) 所 


不 。 
NS (5) (b) 
已 =a(2 WL, +b™) G3D) 
{=1 
> 站 BS 
i =o(WOx, + 2 UM hy, +b,) G32) 
{=1 
x er 
fxr =oWIx, + DU hi +b)) G33) 
1=1 
N 
0,=o(WOx, + Uh, +b,) G34) 
{=1 
N 
uj =tanh(W™ x, + > Uh +b,) G35) 
{=1 
N 
c=iOu, + foc, G36) 
{=1 
h,=0,0tanh(c,) (37) 
1 = SofrMax(W ™h, + b") G38) 


短语 结构 树 中 各 个 节点 表示 短语 组 合 ， 而 动词 词组 的 情感 
表达 要 远 远 强烈 于 名 词 词 组 ， 所 以 并 不 能 同 于 依存 句法 树 中 将 
子 节点 的 情感 状态 向 量 同等 考虑 ， 于 是 在 记忆 模块 中 对 7 和 
有 hi 均 给 予 不 同 的 参数 矩阵 , 且 网 络 训 练 中 会 不 断 调 整 W% 使 网 
络 更 能 侧重 保存 动词 词组 的 结构 信息 以 及 情感 信息 。 由 于 短语 
结构 树 网 络 对 子 节点 更 多 的 限制 ， 网 络 中 的 参数 要 远 多 于 依存 
法 树 网 络 中 的 参数 ， 相 同 地 ， 该 模型 在 训练 网 络 中 通过 不 断 
调整 Ww 中 使 节点 标签 更 贴近 真实 标签 .PCTree-LSTM 网 络 图 如 
图 4(b) 所 示 。 
2.4” 树 结构 用 于 句子 分 类 的 误差 计算 
本 节 主 要 介绍 如 何 将 提出 的 模型 应 用 到 句子 分 类 中 。 树 结 
构 网 络 中 大 部 分 节点 都 存在 真实 标签 ， 每 个 节点 表示 以 这 个 节 
点 为 根 节点 的 子 树 的 短语 。 对 于 任意 节点 j ， 设 该 节点 表示 的 
短语 为 {x}; ， 可 利用 式 (39)(40) 得 到 预测 标签 》 。 
PoCy|{x})) = SofrMax(W"h, +b"™) G39) 


可 


Tr 


,=argmax Po(y|{x})) (40) 


模型 中 每 个 节点 的 预测 标签 和 真实 标签 的 误差 和 为 整个 网 
络 的 误差 ， 选 用 负 对 数 似 然 函数 作为 误差 计算 函数 。 设 树 结构 
有 m 个 节点 ， 每 个 节点 的 误差 计算 公式 如 式 (41)( 仅 计算 有 真 
实 标签 的 节点 ) 所 示 ， 其 中 4 和 0 是 正则 化 的 超 参数 。 


1 m 入 1 
J(O)=- 二 > log poy® |{x}®)+ 人 || (41) 
m4 必 


3 实验 


3.1 句子 分 类 实验 

为 了 测验 模型 的 有 效 性 ， 使 用 斯 坦 福 大 学 基于 影评 数据 创 
建 的 Stanford sentiment tree-bank520 来 进行 实验 ， 该 数据 集 有 两 
种 类 型 : 用 于 二 分 类 的 句子 和 用 于 五 分 类 的 句子 ， 五 分 类 为 ; 


Se 
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very negative, negative, neutral, positive, very positive. 数据 和 癸 
< 有 11855 个 句子 , 平均 句子 长 度 为 19, 数据 集中 共 
提供 了 短语 和 句子 标签 。 如 果 用 其 做 二 分 类 实 
验 , 数据 集中 6920 句 是 训练 集 ， 
试 集 ( 原 标 为 中 性 的 句子 全 部 去 除 ); 如 果 用 
数据 集中 8544 句 式 训练 集 ，1101 句 是 验证 集 ，2210 句 是 测试 
着。 数据 集中 己 经 包含 每 个 句子 的 短语 结构 树 ， 本 文 使 用 


个 短语 ， 数 据 和 外 


J 


中 
215154 


7 


872 句 是 验证 集 ，1821 句 是 测 
其 做 五 分 类 实验 ， 


Stanford 语义 分 析 包 获取 句子 依存 句法 结构 树 。 
实验 中 ,将 PDTree-LSTM 模型 和 PCTree-LSTM 模型 都 分 


别 进行 了 二 分 类 和 五 分 类 的 实验 。 
3.2” 超 参数 调整 


实验 中 使 用 
络 过 程 中 词 向 量 的 学 习 率 是 0.1， 模 型 使 用 


300 维 的 Glove vectors 作为 单词 向 量 ， 训 练 网 


AdaGrad 来 训练 网 


络 ， 其 中 学 习 率 是 0.05， 批 量 数值 为 25。 在 整个 模型 训练 中 为 


避免 过 拟 合 使 ) 


| 丢弃 率 为 0.5 的 Dropout 。 实验 发 现 记 忆 模 块 中 


内 部 向 量 维度 q 的 选择 会 影响 实验 性 能 ，4 较 小 则 使 向 量 保存 


信 


息 较 少 ，4 较 大 则 会 导致 参数 过 多 ， 训 练 结果 易 产生 过 拟 合 


现象 。 如 图 


5 所 示 ， 


五 分 类 7 设 为 150 最 


实验 得 出 ， 二 分 类 中 4 设 为 100 最 佳 ， 


佳 。 


1 二 分 类 
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880 上 
六 815 上 上 
美 
3 
~ grol 

865 

860 
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内 部 向 量 维 度 
(a) 二 分 类 内 部 向 量 维度 选择 

515 五 分 类 

510 

505 
四 500 
一 
- 495 

490 = 

485 

480 4 1 1 4 1 

到 100 150 200 250 
内 部 向 最 维度 
(b) 五 分 类 内 部 向 量 维度 选择 

图 5 二 分 类 和 五 分 类 内 部 向 量 维度 选择 


3.3 ”实验 结果 

实验 中 LSTM, CTree-LSTM, PCTree-LSTM, DTree-LST™, 
PDTree-LSTM 五 个 模型 在 验证 集 上 的 测试 结果 如 图 6 所 示 , 本 
文 提出 的 模型 PCTree-LSTM 和 PDTree-LSTM 在 训练 过 程 中 与 


基本 的 网 络 模型 相 比 都 有 很 好 的 表现 。 


有 


ChinaxXi | 
汪 各。 


val-SST-2classes 
T T 


accuracy 


-一 LSTM 
—4— CTree-LSTM 
一 全 一 PCTreeLSTM | J 
一 站 一 DTree-LSTM 
一 人 PDTree-LSTM | J 


epoch 


(a) 句子 二 分 类 结果 


val-SST-5classes 
T T 


— LS™ 

一 + 一 CTree-LSTM 
一 全 一 PCTreeLSTM 
一 + 一 DTree-LSTM 
—S— PDtree-LSTM 


accuracy 


(b) 句子 五 分 类 结果 


图 6 


句子 二 分 类 和 五 分 类 结果 


最 后 本 文 模型 与 各 种 网 络 模 型 在 测试 集 的 测试 结果 对 比如 


表 2 所 示 ，1 


实验 中 都 能 达到 很 好 的 效果 ， 


结果 可 以 看 出 提出 的 两 个 模型 在 二 分 类 和 五 分 类 
其 中 PCTree-LSTM 模型 在 这 个 


数据 集 上 的 句子 分 类 效果 最 好 ， 


优 于 PDTree-LSTM 模型 。 这 


两 种 模型 的 实 


仿 结 果 差 距 可 能 是 来 自 两 种 树 结构 的 节点 数 


目的 


差别 。 而 且 短 语 结构 树 是 以 短语 关系 为 节点 的 树 ， 拥 有 31.9 万 
的 存在 短语 标签 的 节点 ， 在 训练 中 短语 结构 树 可 以 获取 更 多 的 
短语 信息 ， 而 依存 句法 树 是 以 结构 关系 为 节点 的 树 ， 某 些 节 点 


只 能 表示 为 单词 之 间 的 关系 ， 


其 子 树 单词 分 布 并 不 能 构成 一 个 


短语 ， 只 拥有 15 万 存在 短语 标签 的 节点 。 而 且 在 短语 结构 树 


中 ， 参 数 要 远 远 多 于 依存 句法 树 ， 


参数 越 多 可 以 理解 为 保存 的 


信 


息 越 多 ， 这 也 有 影响 了 分 类 效果 。 


表 2 模型 分 类 正确 率 对 比 结果 


模型 二 分 类 正确 率 〈%) ”五 分 类 正确 率 (%) 
DCNN 86.8 48.5 
CNN-nonstatic 87.2 48.0 
CNN-multichannel 88.1 47.4 
LSTM 84.9 47.8 
DTree-LSTM 85.7 48.4 
PDTree-LSTM 86.2 48.7 
CTree-LSTM 88.0 50.9 
PCTree-LSTM 88.6 S1.3 


录用 稿 
4 ”结束 语 

本 文 先 介 绍 了 几 种 已 有 的 十 分 有 效 的 网 络 ， 特 别 是 将 
LSTM 记忆 模块 拓展 到 衬 结构 网 络 中 ， 使 网 络 能 够 有 效 获取 句 


子 的 语义 结构 信息 ， 丰 富 了 网 络 对 句子 特征 的 学 习 ， 然 后 在 此 
树 结构 网 络 的 LSTM 记忆 模块 中 添加 了 情感 极 性 转移 信息 提出 
了 新 的 网 络 模型 ， 进 一 步 加 强 了 模型 对 句子 情感 信息 的 学 习 。 
神经 网 络 模型 在 句子 处 理 上 有 很 大 的 优势 ， 下 一 步 的 工作 展望 
是 如 何 利 用 神经 网 络 更 加 快速 学 习 句 子 文本 的 结构 特征 ， 从 而 
更 准确 地 获取 句子 情感 


感 信 息 。 
参考 文献 : 


[1] Zhang Y, Chan W, Jaitly N. Very deep convolutional networks for end-to- 
end Speech recognition [Cl]// Proc of IEEE International Conference on 
Acoustics, Speech and Signal Processing. 2017: 4845-4849. 

[2] Gulcehre C, Firat O, Xu K, et al. On integrating a language model into neural 
machine translation [J]. Computer Speech and Language, 2017, 45 (1): 137- 
148. 

[3] Ma L, Lu Z, Li H. Learning to answer questions from image using 
convolutional neural network [C]/ Proc of the 30th AAAI Conference on 
Artificial Intelligence. [S. 1. ] :AAAI Press, 2016: 3567-3573. 

[4] 赵 妍 妍 , 秦 兵 ， 刘 挺 . 文本 情感 分 析 [四 . 软件 学 报 , 2010, 21 (8): 1834- 
1848. 

[5] Landauer TK, DumaisS T.A solution to plato's problem: the latent semantic 
analysis theory of acquisition, induction, and representation of knowledge 
[J]. Psychological Review, 1997, 104 (2): 211-240. 

[6] FoltzP W, Kintsch W, Landauer T K.The measurement of textual coherence 
with latent semantic analysis [J]. Discourse Processes, 1998, 25 (2-3): 285- 
307. 

[7] Elman J L. Finding structure in time [J]. Cognitive Science, 1990, 14 (2): 
179-211. 

[8] Mikolov T. Statistical Language models based on neural networks [J]. 
Presentation at Google, Mountain View, 2012. 


[9] GollerC, Kuchler A. Learning task-dependent distributed representations by 


AAV | 


/全 


LN 人 LY 3 
基于 极 性 转移 和 LSTM 的 树 结构 网 


汪 冉 ， 等 


backpropagation through structure [C]// Proc of IEEE Iternational 
Conference on Neural Networks, 1996: 347-352. 

[10] Socher R, Lin C C, Manning C, et al. Parsing natural scenes and natural 
language with recursive neural networks [Cl]// Proc of the 28th International 
Conference on Machine Learning. 2011: 129-136. 

[11] Socher R, Huval B, Manning C D, et al. Semantic compositionality through 
recursive matrix-vector spaces [C]/ Proc of Joint Conference on Empirical 
Methods in Natural Language Processing and Computational Natural 
Language Learning. 2012: 1201-1211. 

[12] Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive 
autoencoders for predicting sentiment distributions [C]/ Proc of Conference 
on Empirical Methods in Natural Language Processing. 2011: 151-161. 

[13] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural 
Computation, 1997, 9 (8): 1735-1780. 

[14] Jordan M I. Serial order: A parallel distributed processing approach [J]. 
Advances in Psychology, 1997, 121 (2): 471-495. 

[15] Hochreiter S. The vanishing gradient problem during learning recurrent 
neural nets and problem solutions [J]. International Journal of Uncertainty, 
Fuzziness and Knowledge-Based Systems, 1998, 6 (2): 107-116. 

[16] Bengio Y Simard P, Frasconi P. Learning long-term dependencies with 
gradient descent is difficult [J]. IEEE Trans on Neural Networks, 1994, 5 (2): 
157-166. 

[17] Tai K S$, Socher R, Manning C D. Improved semantic representations 位 om 

tree-structured long short-term memory networks [C1]// Proc of Association 
for Computational Linguistics. 2015. 

18] Rath T. Word and Relation Embedding for Sentence Representation [D]. 

Phoenix: Arizona State University, 2017. 

19] Goldberg Y. Neural Network Methods for Natural Language Processing [J]. 

Synthesis Lectures on Human Language Technologies, 2017, 10 (1): 1-309. 

20] 张 小 倩 . 情感 极 性 转移 现象 研究 及 应 用 [D]. 苏州 : 苏州 大 学 , 2012. 


21] Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic 
compositionality over a sentiment treebank [C]/ Proc of Conference on 


Empirical Methods in Natural Language Processing. 2013: 1631-1642. 


